自动识别脚本是多语言OCR引擎的重要组成部分。在本文中,我们介绍了基于CNN-LSTM网络的高效,轻量级,实时和设备空间关注,用于场景文本脚本标识,可在资源受限移动设备上部署部署。我们的网络由CNN组成,配备有空间注意模块,有助于减少自然图像中存在的空间扭曲。这允许特征提取器在忽略畸形的同时产生丰富的图像表示,从而提高了该细粒化分类任务的性能。该网络还采用残留卷积块来构建深度网络以专注于脚本的鉴别特征。 CNN通过识别属于特定脚本的每个字符来学习文本特征表示,并且使用LSTM层的序列学习能力捕获文本内的长期空间依赖关系。将空间注意机制与残留卷积块相结合,我们能够增强基线CNN的性能,以构建用于脚本识别的端到端可训练网络。若干标准基准测试的实验结果证明了我们方法的有效性。该网络实现了最先进的方法竞争准确性,并且在网络尺寸方面优越,总共仅为110万个参数,推理时间为2.7毫秒。
translated by 谷歌翻译